►图源:Pixabay.com
撰文 | 万丽
责编 | 程莉
● ● ●
国际科技巨头对人工智能的研究已逾十多年,并且部分研究成果已经进行商业应用。同时,国内近几年掀起AI热,科研、资本和人才向AI靠拢的趋势明显。互联网巨头公司大力加码推进人工智能研发。马化腾也表示,如果只能投资一个领域,从他自身所处行业出发,他最关注的是和信息技术相关的AI产业。
那么AI在国内研究发展现状如何?未来推进的方向应该是怎样的?美国人工智能协会(the Association for the Advance of Artificial Intelligence,AAAI)执行委员会唯一的华人委员、香港科技大学计算机科学及工程学系教授杨强近日接受《知识分子》访谈,他认为,国内AI研究尽管在投稿量上接近领先,但是在创新方面,国内人工智能研究还有欠缺,“很多人学会回答问题了,但是,很少有人会提出新问题”。
谈到AI未来的发展方向,杨强认为,当前AI应用没有做到让整个行业脱胎换骨,而要做到AI驱动的“核心决策系统”的优化,算法研究的力量可能只占其中比较小的百分比,更多的是要看市场对这个系统的态度,看生态、同盟的发展速度,是不是可以来推动整个垂直行业的跃进。
同时他还指出国内外巨头公司布局人工智能方面的不同之处,并对AI相关人才的培养提出了自己的看法。
以下为访谈全文。
《知识分子》:人工智能不同领域,包括计算机视觉、机器学习、自然语言处理、机器人技术和语音识别技术等,国内与国外研究进展的主要差距体现在哪?
杨强:人工智能和其他的科学行业的发展规律是类似的,比方说天体物理,在一些大家已公认的题目上,像“用射电望远镜观测星系”,“研究星系的发展规律”等,在大家都得到数据和资源后,就都去参与研究。中国的人工智能发展现在处于这个状态,有一些国际上公认的热点题目,大家都去研究,例如机器学习,有很多的学生、学者去参与。我们现在的科研文章,不管是投稿量还是被接收量,都已经接近世界的水平了,这是很可喜的事。
但是在创新方面,国内的人工智能还有欠缺。 就像在科学的领域发现一个新的星体,或是发明一个新的手段去进行科学发现,这类注重“新”的问题,需要科学家去深度思考,也是科学家们真正应该做的事情,而不仅仅是做人家定下来的题目。做别人给的题目比较容易,但提出好的、新的题目却很难。国内人工智能研究方面,“引领”型的研究还不够,接近国际水平,只是从量的上面看,这当然已经相当不错了。但是从质的方面,还有不小的差距。这就像:现在很多人学会回答问题了,但是,很少有人会提出新问题。
造成这种差距的原因来自多方面,一方面可能是因为媒体的宣传和社会对青少年的培养仍然比较传统,即:鼓励大家去研究人人都在做的方向,去人多的地方掘金。这种思维是整个社会和文化造成的,一时没办法改变。另外,某些学生、学者比较注重短期效益,比较在乎短期的成败比如文章数。媒体上也宣传,大家在评价大学等机构研究水平时,还是在看发表文章的数量,认为一家机构发表的文章多,这家机构就很厉害,其实,这是一个错误的引导。应该转变思维,强调他们提出了几个新的思维,这些思维被全世界多少人跟踪,引用,发展。
美国人工智能协会委员、香港科技大学计算机科学及工程学系教授杨强。图片由受访者提供。
《知识分子》:如何评价当前人工智能不同领域商业化应用推进程度?落地难的主要原因是?
杨强:我们要解决人工智能落地难,首先要理解什么叫“落地难”。我的理解就是,在实验室理想的环境下,取得了很大的成功,但是拿到实际的生活、生产当中去,往往不能得到预期的结果。AI落地,会遇到很多的挑战。
第一个挑战是数据少。数据在大部分产业界都是以孤岛的形式存在,以小数据的形式存在,没有形成完整的大数据。为大数据设计的算法模型,在大多这样场景中,就会无能为力。
第二,我们逐渐意识到AI其实并不是一个产品,不像Microsoft Office一样,大家拿来就可以用。而是:AI的模型需要做训练,训练是需要数据的,需要标记好的数据,要有不断壮大模型的经验、需要有能力获得好的反馈来帮助模型壮大、整合不同的数据拥有方来进行互补。所以,这些都说明,AI的落地更像是一个“解决方案”。但是,如果AI仅仅是解决方案的话,落地就会非常难,因为对于不同的问题,需要不同的方案设计,这就很难Scale up (扩展),效率会非常低下。
如何把一个通用的解决方案做成一个“落地”的解决方案呢? 这就是需要非常巧妙地做好一个垂直领域行业的“生态”,在这个行业生态里,有很多的参与方,大家都能参与进来获利。最好的例子就是一个开放的操作系统。而AI现在的状况是,大家还都是各家在做各家的,没有联成像“操作系统”一样的生态。我们希望,AI以后能够发展生态,成为“珠联璧合”的形式,那时候人工智能才能真正的落地。
《知识分子》:您觉得这几年国内人工智能落地运用推进处于加速的状态吗?
杨强:应该说有很多线头出来了。我们放眼看去,这些版图上面的小烟筒一个一个都起来了,但是大烟筒还不多。
《知识分子》:大烟筒是指什么?
杨强:大烟筒是“深度的”、人工智能的产业化的应用和生态,包括用人工智能来驱动一个行业,或者是加速一个联盟的发展,AI的产业化在这方面做得还不够。而我们看到更多的是一些“打补丁”式的AI应用。比方说一个传统企业,以前没有用人工智能来做人机交互,人脸识别,而现在用了,但这样的企业还不算是人工智能企业。就像一个清朝的学者,带上一副眼镜,也不能称作现代的知识分子。我们可以把AI的这种用法叫作“局部优化“,或Local Optimization,但是,这样的AI应用没有做到整个行业的脱胎换骨,即AI驱动的“核心决策系统”的优化。用这种“打补丁”的做法,AI的最大优势也就没有可能发挥出来。
一个行业下AI驱动的决策系统,在它的优化过程中,算法研究的力量可能只占其中一个比较小的百分比,更多的是要看市场对这个系统的态度,看生态,同盟的发展速度,是不是可以来推动整个垂直行业的跃进。这和“操作系统”的发展一样的,要建立一个大家都能受益的同盟。而建立这个同盟,不仅仅需要一个个顶尖的科学家,也需要一些Visionary,需要像成吉思汗一样的站得很高、有视野的领袖型人才,来找到突破口,发现生态成长的机会,让雪球滚起来。 在这个方面,我们是相当所欠缺的。
《知识分子》:您在很多场合讲到迁移学习,能否讲讲迁移学习的最新研究进展以及应用?
杨强:迁移学习的前景在现阶段是非常喜人的。人工智能的发展分为两个阶段,第一是在本领域有数据的地方建一个好的模型,想各种方法让这个模型越来越优化;第二是把一个已经好的模型举一反三地推广到周边去,去“泛化”一个已有的模型。第二步就需要迁移学习来做了。
迁移学习最近有几个比较值得乐观的发展。
首先,我们发现深度学习和迁移学习可以很好地结合,深度学习的层次观念能够帮助迁移学习定性定量地认识哪一部分的特征可以更好地被迁移。这个是非常好的进展。
其次,我们开始有能力把一个领域的结构和内容分开,就好像可以把一幅画的结构、颜色的布局和具体的颜色给分开,如此一来,对于结构的学习可以变成迁移学习,因此用很少的数据就可以学习。对于内容的学习,可以经过大量的数据来学习,这种剥离也是一种“定量”的进展,相比之前定性的认识就进步多了。
第三,现在有更多的工具,来帮助进行迁移学习的发展。比如最近出的 “生成式的对抗网络”(GAN),它可以利用一些已有的数据,学会把数据模拟出来,就能使我们有一个很好的模拟器。“模拟”对于迁移学习来说非常重要,因为只有先学会模拟,然后才能学习修改和适配,把一个模型适配到另外一个领域去。
最后,现在有一些比较尖端的企业、研究者逐渐在形成共识,开始把眼光放在迁移学习上了。例如DeepMind 的Hassabis说他们团队的下一个关注点就是迁移学习,吴恩达(Andrew Ng)也说,迁移学习是下一个机器学习的热点和爆点。Google也在推动AutoML(自动化机器学习)作为他们攻关的重点。AutoML其实就是迁移学习,即“学习如何学习”和学习一个模型里设置超参数的办法,自动化的设置。各个迹象来看,越来越多的AI科学家们现在都开始关注迁移学习,这个是一个很好的现象。
迁移学习目前的应用很多,举个例子,第四范式公司利用迁移学习,为金融界建立营销、风控等方面的解决模型。比如某个金融公司要进行大额贷款,需要对用户画像以找出目标客户群。这个模型的建立,需要大量的大额贷款的数据做训练。但是,现实中却没有这么多的数据对应到大额贷款,怎么办呢?可以在小额贷款里面获得大量的用户画像数据,并建立模型,再把这个小额贷款的模型,通过迁移学习,适配到大额贷款的少量数据上,从而进行用户画像。再比如,在语音应用上,用普通话的系统,适配到四川话的小数据上,就可以理解方言。
《知识分子》:如何理解人工智能芯片在人工智能发展过程中的作用?可否认为,人工智能未来计算力的进一步发展,将主要取决于底层芯片的作用?
杨强:应该这么说,人工智能不是一个单一的产品,它是一整套的解决方案,至少在现在这个阶段还是这样。那么作为一个解决方案,它是多个系统的联合运作。其中一个很重要的系统,就是终端系统。如何能够让终端也具有这个智能的能力,能够在本地处理一些数据,让整个系统很自然地运转起来,就需要一个芯片,这个芯片要拥有能够快速处理和协调各种硬件体系的能力。所以从这点上来看,如果我们要让整个互联网变成“智联网”,以智能为驱动的网的话,每一个结点都需要有一定的智能学习的能力。这是为什么大家对智能芯片特别感兴趣的原因之一。
另外,最近发现人工智能平台的发展最好的方式是分布式的。比方说MIT的AI大师叫Marvin Minsky,他的一个观点叫Society of Mind,就是大脑里体现的人类智能,是由多个智能体的互相沟通形成的,而不是由单一的智能体形成的。所以我们会看到未来最好的一种智能架构,应该是千千万万个具有智能能力的终端联合在一起,互相沟通,最后整个系统体现出智能的能力。所以不管从产业或者科学的角度来说,这种分布式的智能发展也是一种发展的趋势。
《知识分子》:您如何评价国内人工智能芯片整体发展状况?
杨强:我觉得整体的发展和现状,最好的试金石就是“落地”和“生态”的建立。我们可以看看大家到底能卖出多少个芯片,有多少个产业被你的芯片所改变。我觉得现在还没有迹象表明我们接近这样量化的成功,我们看到的报道中,大家可能讲预期和愿景多一些。所以我们期待接下来会看到一些落地的场景和生态的数字。
《知识分子》:巨头公司和创业公司在人工智能产业链上的布局有何不同?国内外巨头公司布局又存在哪些差异?造成这些差异的主要原因是?
杨强:我觉得AI的初创公司分两种。一种是赋能型的,能够让传统企业的某些局部应用“人工智能化”。比如,某个银行想做一套人脸识别系统来帮助风险控制。这个可以由AI初创公司来做。但这样做的困难也很多,比如,AI赋能其实也是大公司里面的IT团队想做的事情,所以从资源上来说,在这方面巨头和AI初创公司做的事情没有很大差别的,这就为作为乙方的AI初创公司的发展,提出了挑战。那么是不是大公司就容易做AI了呢? 很多大公司里面有部门墙,如果建一个单独的人工智能团队,往往也不太行得通的。
第二类AI的初创公司,走的是另外一条路,他们建立一个完整的链条,叫“端到端的AI系统”,比如无人车: 人在系统的外围起作用,像定义目标函数,收集数据或者标注数据这些工作,而系统在做中心决策。又比如,一套以AI驱动的金融风险控制服务,可以自动化进行。我比较看好这一类AI的初创公司,因为它充分发挥AI的“复利功能”,减少人为带来的摩擦,并为传统行业带来“质”的变化。
那么国内外的巨头有哪些区别呢?我觉得国外的巨头不会刻意去拿“人工智能”作为一个企业口号。他们会从业务里面发展出一套人工智能的需求,然后利用人工智能作为工具,去满足这个需求。例如谷歌云因已经落后于Amazon云而在努力追赶,那么他们是怎么追赶的呢?他们通过AutoML来追赶,让使用谷歌云的人,可以很快自动建立一套垂直行业的人工智能模型,而且他们试图做到比Amazon云所建立的模型要快、要好。这就完全是需求驱动的。国内的巨头会更在意提出AI平台,希望大家来用。但是在一个生态建立起来之前,大家往往不会来用,因为生态的建立是要从需求出发的。
《知识分子》:您是第四范式的联合创始人,能否介绍一下第四范式的模式。如何理解第四范式的机器学习平台?
杨强:“第四范式”属于我上面提到的初创公司中的第一种过渡到第二种的状态,即试图建立一个AI 驱动的企业的核心决策系统,但达到这个目标的路径,是通过自己的机器学习平台 (叫做“先知“),先做一个赋能者,竖起很多垂直行业的“烟筒”。比如,一个企业里面可能有很多数据、很多业务,当业务增长很快,业务量到一个程度,用人为的形式已经不能去满足它的时候,就一定要用机器来做。如果要建立这个系统,就需要从底层往上搭。从数据的整合到机器学习的建立,到前端、后端,端到端的系统的建立。这一套系统的建立,是需要经验的,要做N次才能积累这个经验。
“第四范式”的解决方案的价值来自两方面,一是给你提供这个平台来赋能,二是让你可以利用这个经验,学会自己做这件事。对于未来的企业来说,这种 “自己具有AI能力”的需求会逐渐明显。因为随着数字化的提升,这种技术和业务结合的需求会越来越大。
《知识分子》:在当前技术平台期,许多创业公司搭建一个模型、利用一些数据,就能开发出一个产品,并在实际应用中完成商业变现。有的创业公司则下注人才团队,摸索“原创”算法技术,并认为,从技术出发,站在制高点上,知道技术发展的程度,才能把握行业发展趋势。您对此如何评价?
杨强:我觉得两者都需要,而且是互补的。假设有的公司算法一般,但是数据很好,有的公司算法很好,但是数据一般。我更倾向于数据好的那一方,因为如果数据好到一定程度,用一个很普通的算法,其实也已经相当好了。而研究算法往往会误入歧途。
过去人工智能在实验室的环境下研究出来的效果往往都带着很强的假设,比如假设“收不到某种数据”,但其实在现实中是可以收到的,那花在研究算法的时间就会被浪费。花时间去研究算法,也要花钱,有时候花那份钱还不如去买数据。
我现在接触产业界较多,我发现解决产业界智能化问题,更多的是需要人的智慧、科学家的智慧,而不是一种智能、技能。发展AI,更重要的是利用智慧去设计一个机制,也就是我们常说的“场景”,在这个机制下数据,算法,和生态是一个有机的整体。我们所说的“智能”就像是在做题,而智慧是“出题”,正是这种区别,需要我们在数据和算法的选择上做很好的平衡。
《知识分子》:当前AI创业公司死亡率高,您认为主要原因是什么?人工智能细分领域非常多,每个领域还分很多个垂直领域,您对创业公司在选择人工智能创业方向时,有何建议?
杨强:我们看现在人工智能公司的死亡率,其实我们现在还没有这个“死亡率”的数字。大家有些人预期会死一大批,有些名人则预测说,2018年底会死一批。但是很有可能他们到时候没有死,可能是有人在不断给他们输血。这些AI公司以后会发生什么?这个就好像天气预报一样,本来说今天要下雨,结果今天是晴天。所以,我们应该把目光放在,AI的初创公司应该注重什么,这样的问题上。
初创公司往往在方向的选择上比较盲目,而战略方向的选择往往是成败的关键点。比如,当前不少人都认为“对话系统”这个技术很重要,某些大公司也把通用型对话系统作为下一个技术点去攻克,认为如果做出通用的对话系统,就可以拥有未来。这些,都是一些人的假设,我们并不知道对不对,需要去实践。但是这样的宣传,却引发了很多初创公司都来做对话系统,他们看不到的是,对话系统的技术门槛其实并没有那么高,而数据的门槛极高。要做一个普通的对话系统其实是很容易的,可以拿一些规则和数据去堆。但是做一个好的、复杂的对话系统,则需要既有AI的技术,又有实际应用场景,还要有很好的、持续的数据支持,另外还要有资金的投入。以上条件都满足的初创公司,非常非常少。
以后AI的创业公司会发生什么?以后这些AI初创公司有可能会被大公司收购一批,还有一批可能就死掉了,或者改变方向,还有的可能把投资人都试过一遍后,再去试老百姓——也就是上市。以上这些,都不是我们做AI的最初的理想,我们的理想是用AI的技术真正地改变社会,能够让生活更便利,让社会更均衡,让工作更有效率。AI的初创公司应该保持初心,不要忘掉这些终极目标。这就需要他们具有好的市场判别能力,要明确目标,也要了解路径。
《知识分子》:人工智能人才培养方面,国内的高校设有这个研究方向的其实很少?您怎么看目前国内人工智能相关人才的现状?
杨强:人工智能人才分几个方面,一个所谓“好”的AI人才,第一要有动手的能力,能编程、能够做技术上的取舍、判断技术的好坏、能处理大批的数据。第二个方面可能就更难得了,这个人要有“跨界”的思维,要有想象力。就像一个人看到一片好的风景,会联想到诗歌一样的。这样的人才,看到一个问题会联想到一个算法。这种能力没法在学校里培养,一定是在一个环境里通过行动来获得,这种能力在有些人身上可能会多一些,有些人身上少一些。所以人工智能的人才少,是说这种跨界的人才少。一定是和实际结合,有编程能力,另外又跨过界还活下来的人,才适合做人工智能。第三方面,是人工智能的人才需要具备市场思维,有一点商学思维,懂得建立生态的重要性,会发现各方的互补性,能把大家的需求挖掘出来。
《知识分子》:是否可以认为,未来人工智能的竞争的核心是人才?
杨强: 一开始是人才,然后就是“机器才”。 说不定以后机器人也会做人工智能,我们刚才说的AutoML就在往这方向发展。“阿尔法零”都不靠人了,人是不靠谱的,会拖累AI系统的迭代。不过言归正传,确实是这样,人才决定AI的竞争胜负,而AI人才的培养是从实战中来的,不是空降得来的,也不是高校可以成批培养的。
杨强:
香港科技大学讲席教授,第四范式公司联合创始人。杨强于1982年本科毕业于北京大学天体物理专业,分别于1985年和1987年毕业于美国马里兰大学的计算机系和天文学系,获双硕士学位,1989年获马里兰大学计算机博士学位。
杨强曾任香港科技大学计算机科学及工程学系主任与大数据研究所创始主任。他曾经担任华为诺亚方舟实验室主任(2012-2014)。AAAI Fellow,IEEE Fellow,AAAS Fellow,IAPR Fellow和ACM杰出科学家。他的主要研究兴趣是人工智能和数据挖掘,特别是迁移学习。他同时是ACM TIST期刊和IEEE大数据期刊创始主编。
制版编辑:黄玉莹 |
本页刊发内容未经书面许可禁止转载及使用
公众号、报刊等转载请联系授权
copyright@zhishifenzi.com
商务合作请联系
business@zhishifenzi.com
▼点击查看相关文章
▼▼▼点击“阅读原文”,直达知识分子书店!